Lottery Ticket Hypothesis
初期値とネットワーク構造の組み合わせが良いのでは?
故にoverparameterizationの方が良いのでは?
ランダムに初期化した大きなニューラルネットワークの中に,性質の良いサブネットワークが非常に高い確率で存在する
部分的には数学的に証明されている
適したアーキテクチャの自動獲得への一歩
リザバーコンピューティングににている(?)
自己教師あり学習のみで、そこそこ良いモデルが作れるのでは?
新しい学習アルゴリズムが見つかりそう
Grokking
モデルサイズを上げると急激に足し算などの論理演算ができるようになったり
じゃあ創発能力の源泉は何なのか?GPT-3は命令チューニングしたりコードを学習させたらCoT能力上がったからこの辺が大事なのかも。あとCoTが流行り出してからはCoTのデータで訓練させる流れも始まってるから、それも効くかもしれないという結論。
アーキテクチャの重要性
conv, invariant layrer, equivariant layer, attention, ete...
宝くじ仮説, 弱い宝くじ仮説
The lottery ticket hypothesis: finding sparse, trainable neural networks
IMPアルゴリズム
35%ぐらい刈り込むと良いことがある、適切なところまで刈り込まないと良いものは見つからない
強い宝くじ仮説
What's hidden in a randomly weighted neural network?
Edge-popupアルゴリズム
重みを変えなくても良い、刈り取るだけでOK、マ??
最大クリーク問題の計算量評価でランダムグラフを用いて計算量を評価するやつ応用できるんちゃう
証明に部分和近似
自己教師あり学習で宝くじを見つけたい、ラベルなしの時空間モデルに置いて良い世界モデルが得られそう
LLaMAのパラメータ70億のモデルをチューニングしたらGPT-3(パラメータ1750億)に匹敵したらしい
しかも学習データにはGPT-3を使って生成したものを使っててトータルのコストは10万円以内で出来たのだとか
PACベイズ理論の観点に基づく宝くじ仮説の分析
強い宝くじ仮説におけるHyperNetworksを用いた入力データごとに異なるサブネットワークの発見